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MD5 


L'algorithme MD5, pour Message Digest 5, est une fonction de hachage 
cryptographique qui permet d'obtenir l'empreinte numérique d'un fichier (on 
parle souvent de message). I| a été inventé par Ronald Rivest en 1991. 


L'utilisation de cette fonction de hachage dans les signatures numériques 
peut conduire à de multiples scénarios d'attaque | et n'est plus considérée 
comme un composant fiable de l'infrastructure à clés publiques. Cependant 
dans le calcul de la « signature » d'un fichier il reste plutôt fiable, même si l'on 
ne peut pas assurer qu'il y a unicité entre l'empreinte calculée et le fichier ou 
message source. 


Sommaire 


1 Historique 
2 Exemple 
3 Cryptanalyse 
4 Algorithme 
4.1 Notation 
4.2 Préparation du message 


4.3 Boucle principale | empreinte de 128 bits 
5 Pseudocode Vue générale de MD5 El 


bloc suivant 


6 Notes et références 
7 Liens externes 


Historique {modifier le code] 


MD5 (Message Digest 5) est une fonction de hachage cryptographique qui calcule, à partir d'un fichier numérique, 
son empreinte numérique (en l'occurrence une séquence de 128 bits ou 32 caractères en notation hexadécimale) 
avec une probabilité très forte que deux fichiers différents donnent deux empreintes différentes. 


En 1991, Ronald Rivest améliore l'architecture de MD4 pour contrer des attaques potentielles qui seront confirmées 
plus tard par les travaux de Hans Dobbertin. 


Cinq ans plus tard, en 1996, une faille qualifiée de « grave » (possibilité de créer des collisions à la demande) est 
découverte et indique que MD5 devrait être mis de côté au profit de fonctions plus robustes comme SHA-1. 


En 2004, une équipe chinoise découvre des collisions complètes. MD5 n'est donc plus considéré comme sûr au sens 
cryptographique. On suggère maintenant d'utiliser plutôt des algorithmes tels que SHA-256, RIPEMD-160 ou 
Whirlpool. 


Cependant, la fonction MD5 reste encore largement utilisée comme outil de vérification lors des téléchargements et 
l'utilisateur peut valider l'intégrité de la version téléchargée grâce à l'empreinte. Ceci peut se faire avec un 
programme comme md5sum pour MD5 et sha1sum pour SHA-1. 


Comme toute fonction de hachage cryptographique, MD5 peut aussi être utilisé pour calculer l'empreinte d'un mot de 
passe avec la présence d'un se/ permettant de ralentir une attaque par force brute. Cela a été le système employé 
dans GNU/Linux. Ainsi, plutôt que de stocker les mots de passe dans un fichier, ce sont leurs empreintes MD5 qui 
sont enregistrées, de sorte que quelqu'un qui lirait ce fichier ne pourrait pas découvrir les mots de passe. La 
commande enable secret des commutateurs et routeurs Cisco, utilisait le hachage MD5 (5 pour indiquer MD5) pour 
stocker le mot de passe du mode privilégié dans le fichier de configuration de l'équipement. Les dernières versions 
d'IOS intègrent le hachage SHA256 (4 pour indiquer SHA256)°. 


Le programme John the ripper permet de casser (trouver une collision pour) les MDS triviaux par force brute. Il est 
incommode pour les clés longues, et ne fonctionne pas toujours si elles contiennent des caractères nationaux 
spécifiques (cela dépend en fait des dictionnaires utilisés). 


Les fables arc-en-ciel (à accès direct, et qui font parfois plusieurs gigaoctets) permettent de les craquer souvent en 
moins d'une seconde. Ces tables utilisent des dictionnaires établis après plusieurs jours, mois ou années de calcul. 
Ceux-ci ne contiennent pas la totalité des clés MD5 possibles, ni ne sont destinés à un cassage par force brute (une 
empreinte comporte 128 bits, ce qui représente environ 400 sextillions (4.10%) de combinaisons), mais permettent 
par examen de l'empreinte d'éliminer de très grandes classes de combinaisons à ne pas tester, ce qui accélère la 
recherche plusieurs milliards de fois. L'efficacité des tables arc-en-ciel diminue si l'empreinte est calculée avec un 
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Simple English selis 
Slovenčina 
Slovenščina 
Cpnekn / srpski Exemple modifier ie code] 
“ue Voici l'empreinte (appelée abusivement signature) obtenue sur une phrase : 
OMAKA 
Yna 5("Wikipedia, l'encyclopedie libre et gratuite") = d6aa97d33d459ea3670056e737c99a3q 
us En modifiant un caractère, cette empreinte change radicalement : 
YKkpaïHcbka 
Tiéng Viêt 5("Wikipedia, l'encyclopedie libre et gratuitE") = 5da8aa7126701c9840f99f8e9fa54976 
Gapa 


Très concrètement, la vérification de l'empreinte ou somme de contrôle MD5 peut être réalisée de la façon suivante : 
Modifier les liens = Jors du téléchargement d'un programme, on note la série de caractères nommée "Signature MD5" indiquée sur la 
page de téléchargement. Quand ce téléchargement est terminé, on lance un utilitaire de calcul MD5 comme, par 
exemple: HashCalc ou md5sums, qui indique entre autres la somme de contrôle correspondant au fichier. Si les deux 
valeurs correspondent, on peut alors raisonnablement considérer que le fichier n'a pas été corrompu (volontairement 
ou non d'ailleurs). On constate plusieurs fragilités dans ce processus : la page d'origine a pu être modifiée, et 
l'utilitaire de calcul peut être adapté pour fournir la signature attendue. C'est pourquoi il faut impérativement utiliser 
un utilitaire provenant d'une source de confiance. Il est aussi possible d'utiliser une extension pour le navigateur 


Mozilla Firefox comme MD Hash tool afin d'automatiser ce contrôle. 


Cryptanalyse 1modifierle code] 


À ses débuts, la fonction MD5 était considérée comme sûre, mais au cours du temps, des failles potentielles ont été 
découvertes dans son fonctionnement et durant l'été 2004, il a été cassé par des chercheurs chinois, Xiaoyun Wang, 
Dengguo Feng, Xuejia Lai (co-inventeur du célèbre algorithme de chiffrement IDEA) et Hongbo Yu. Leur attaque a 
permis de découvrir une collision complète (deux messages différents qui produisent la même empreinte) sans 


passer par une méthode de type recherche exhaustive? à 


Sur un système parallélisé, les calculs n'ont pris que quelques heures. Le MD5 n'est donc plus considéré comme sûr, 
mais l'algorithme développé par ces trois chercheurs concerne des collisions quelconques et ne permet pas de 
réaliser une collision sur une empreinte spécifique, c'est-à-dire réaliser un deuxième message, à partir de l'empreinte 
d'un premier message, qui produirait la même empreinte. Un projet de calcul distribué lancé en mars 2004, MD5CRK, 
visait à découvrir une collision complète mais a été subitement arrêté après la découverte de l'équipe chinoise. La 
sécurité du MD5 n'étant plus garantie selon sa définition cryptographique, les spécialistes recommandent d'utiliser 
des fonctions de hachage plus récentes comme le SHA-256. 


On sait maintenant générer des collisions MD5 en moins d'une minute lorsque les deux blocs en collisions sont 

« libres »ê . On peut aussi générer une infinité de collisions avec un texte T à partir de deux messages M1 et M2 de 
même longueur qui sont en collision. Il suffit de concaténer M1 et M2 avec T, tel que T1 = M1 + T et T2 = M2 + T, afin 
d'obtenir une collision complète entre T1 et T2. On ne peut toutefois pas générer une signature particulière et la 
falsification de documents reste un exercice difficile. 


Dès 2006, il est par exemple possible de créer des pages HTML aux contenus très différents et ayant pourtant le 
même MD5. La présence de métacodes de « bourrage » placés en commentaires, visibles seulement dans la source 
de la page web, trahit toutefois les pages modifiées pour usurper le MD5 d'une autre. La supercherie peut donc être 
levée si on examine les sources de la page en question. 


En 2008, le logiciel BarWF ? utilise les ressources des instructions SSE2 et des processeurs massivement parallèles 
d'une carte graphique (CUDA) pour casser du MD5 en force brute à la vitesse annoncée de 350 millions de clés par 
seconde. 


Algorithme [modifier le code] 
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Notation [modifier le code] 

e [<<<], est une rotation de s bits vers la gauche, s varie pour 
chaque opération. 

e [+] symbolise l'addition modulo 232, 

+ , A, V, ~ symbolisent respectivement les opérations M; 
booléennes XOR, AND, OR et NOT. 


Préparation du message [modifierle code] 


MD5 travaille avec un message de taille variable et produit une 
empreinte de 128 bits. Le message est divisé en blocs de 
512 bits, on applique un remplissage de manière à avoir un 
message dont la longueur est un multiple de 512. Le remplissage 
se présente comme suit : 

e on ajoute un '1' à la fin du message A | B E | C 


Une opération de MD5. MD5 comprend 64 blocs #5 
de ce type, groupés en quatre tours de 16 opérations. 
e on écrit la taille du message, un entier codé sur 64 bits Fest une fonction non-linéaire, qui varie selon le tour. 
M symbolise un bloc de 32 bits provenant du 
message à hacher et K; est une constante de 32 bits, 
message peut être divisée par 512. Cette méthode de padding différentes pour chaque opération. 


est semblable à celle utilisée dans la plupart des algorithmes de 

Message Digest des familles MD (comme MD5 ou RIPEMD) ou 

SHA (SHA-1 ou SHA-512) mais différente de celle de l'algorithme Tiger qui utilise une convention dite Little endian 
d'ordonnancement des bits dans chaque octet. 


e on ajoute une séquence de '0' (le nombre de zéros dépend 
de la longueur du remplissage nécessaire) 


Ce remplissage est toujours appliqué, même si la longueur du 


La taille du message est codée en Little endian. Le message a maintenant une taille en bits multiple de 512, c'est-à- 
dire qu'il contient un multiple de 16 mots de 32 bits. 


Boucle principale {modifier le code] 

L'algorithme principal travaille avec un état sur 128 bits. Il est lui-même divisé en 4 mots de 32 bits : A, B, C et D. lls 

sont initialisés au début avec des constantes. L'algorithme utilise ensuite les blocs provenant du message à hacher, 
ces blocs vont modifier l'état interne. Les opérations sur un bloc se décomposent en quatre rondes (étapes), elles- 

mêmes subdivisées en 16 opérations similaires basées sur une fonction non-linéaire F qui varie selon la ronde, une 
addition et une rotation vers la gauche. Les quatre fonctions non-linéaires disponibles sont : 


F(B,C,D)=(BAC)V(-BAD) 
G(B,C,D)=(BAD)V(CA-D) 
H(B,C,D)=B@C@D 
I(B,C,D)=C@(BV-D) 


Pseudocode [modifier le code] 


MD5 peut s'écrire sous cette forme en pseudo-code. 


//Note: Toutes les variables sont sur 32 bits 


//Définir r comme suit : 
var entier(64] r, k 


NO LS IE ST I SU 22 TP PU AA a a T en Te e T ZE 
CPS TES e a 0 NS NO e OS RC A RC OS a e 0) 
DS 2 AIR SU IPTC RS UP TG RS A PTE RS A Eté, 251 
MAR ceS EMI LORS RING TO AS RTC TO IS EEE CO TS l, 


//MD5 utilise des sinus d'entiers pour ses constantes: 
pour i de 0 à 63 faire 

k[i] := floor(abs(sin(i + 1)) x 2732) 
fin pour 


//Préparation des variables: 
var entier h0 := 0x67452301 
var entier h1 := OxEFCDAB89 
0x98BADCFE 
0x10325476 


var entier h2 : 
var entier h3 : 


//Préparation du message (padding) 
ajouter le bit "1" au message 
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ajouter le bit "0" jusqu'à ce que la taille du message en bits soit égale à 448 (mod 512) 
ajouter la taille du message codée en 64-bit little-endian au message 


//Découpage en blocs de 512 bits: 
pour chaque bloc de 512 bits du message 
subdiviser en 16 mots de 32 bits en little-endian w[i], 0 < i < 15 


//initialiser les valeurs de hachage: 


var entier a := h0 
var entier b := h1 
var entier c := h2 
var entier d := h3 


//Boucle principale: 
pour i de 0 à 63 faire 
si 0 < i < 15 alors 
f := (b et c) ou ((non b) et d) 
ai 
sinon si 16 < i < 31 alors 
f := (d et b) ou ((non d) et c) 
g := (5xi + 1) mod 16 
sinon si 32 < i < 47 alors 
£ := b xor c xor d 
g := (3xi + 5) mod 16 
sinon si 48 < i < 63 alors 
f := c xor (b ou (non d)) 
(7xi) mod 16 


IA 


El 


Q 
‘i 


fin si 
var entier temp := d 
d := c 
c := b 
b := ((a + f + k[i] wgl) leftrotate riil) Tp 
a := temp 
fin pour 


//ajouter le résultat au bloc précédent: 


ROMEO A 
AIN DIRE 
RAR: MAT E 
a = e a ol 
fin pour 
var entier empreinte := h0 concaténer hl concaténer h2 concaténer h3 // (en little-endian 
KI D) 


N 
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PANAMA : RIPEMD : RIPEMD-128 : RIPEMD-160 : RIPEMD-256 + SHA:-0 - SHA:1 - 
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Pseudo-collision 


Remplissage - Fonction de compression - Construction de Merkle-Damgärd -+ 
Architecture Construction de Miyaguchi-Preneel + Construction de Matyas-Meyer-Oseas * 
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